Le BIOM a été créé dans le script01. Il est cependant “brut”.
Somme de tous les reads et on applique un filtre de 10-5 afin de s’assurer que ce ne sont pas des artefacts Dans notre cas permet de filtrer les taxa avec des valeurs supérieures à 180 reads par OTU
| échantillon | mean | median | min | max | |
|---|---|---|---|---|---|
| Biom | 846 | 21339.08 | 5 | 0 | 2709474 |
| Filter_Biom | 846 | 21207.16 | 1092 | 181 | 2709474 |
Le niveau d’abondance semble hétérogène. Il faudra donc prévoir un procédé de rarefaction
Dorénavant nous ne travaillerons que sur données filtrées. Ne sert à rien d’aller au niveau Phylum ou infra car trop d’échantillons donc aucune couleur n’est visible Nous remarquons que le niveau d’abondance par échantillon est hétérogène de 25 000 en moyenne à 250 000.
Analyses effectuées mais retirées : J’avais fait des niveaux d’abondance par échantillon en fonction de différentes variables (sexe, satut tabagique…) mais ne sert à rien car ça équivaut à voir la profondeur et ce n’est pas biologiquement informatif donc enlevé.
| Var1 | Freq |
|---|---|
| Actinobacteria | 22 |
| Bacteroidetes | 223 |
| Firmicutes | 686 |
| Fusobacteria | 2 |
| Proteobacteria | 45 |
| Synergistetes | 9 |
| Tenericutes | 5 |
| Verrucomicrobia | 5 |
Les Firmicutes sont les bactéries majoritaires. Elles sont les plus abondantes suivies des Bacteroidetes
Les échantillons semblent assez homogènes dans la composition par famille.
Sur les données au niveau du genre rien ne se dégage quelque soit la catégorie (sexe, age, tabac…). Les échantillons semblent donc peu différents entre eux.
Il y a une grande diversité de bactéries et nous ne voyons pas de genre majoritaire quelque soit la variable. Pour l’ordre Clostrdiales est majoritaires quelque soit la variable prise (exemple ci dessous)
Composition en Firmicutes au niveau de l’ordre en fonction de l’âge
Diversité intrinsèque à chaque échantillon
Exploration de l’impact de chaque covariable sur la diversité-alpha
Les différents indices:
* Shannon : représente à la fois le nombre d’espèces d’un milieu mais aussi la répartition des effectifs individuels au sein des espèces présentes.
* Simpson : mesure de régularité cad mesure la probabilité que deux individus pris au hasard appartiennent à la même espèce.
* Chao1 : tient davantage compte des espèces peu abondantes nécéssite de conserver singleton donc pas pris.
Age diffère significativement en terme d’observation d’OTU, mais également en terme de diversité en nombre d’espèces.
Pour la catégorie sexe : Pas de différence signicative pour le nbre d’OTU mais différence significative pour le nbre d’espèces.
Pour le statut tabagique: Observation significative ainsi que Shannon, nombre d’OTU et nombre d’espèce significativement différentes. InvSimpson 0.07.
Modèle Observed
Modèle shannon
Modèle InvSimpson
correspond à la différence de diversité des espèces entre plusieurs milieux Diversité entre échantillons : indice de dissimilarité (Bray et Curtis , de Jacard) Phylogénie (Unifrac) indice de Jaccard pour taxons rares et Bray-curtis pour les abondants.
#### Ordination sans contrainte: capture de la diversité peu importe d’où elle provient. Conclusion : Aucune tendance ne se dégage. Il n’y a pas de différence de diversité d’espèces entre les différents échantillons pour les catégories (age, sexe, tabac, bmi). Impossible de voir pour l’activité physique. La plage semble trop importante pour une coloration. Il faudrait les catégoriser
Représentation MDS (pour « Metric MultiDimensional Scaling » soit analyse multidimensionnelle métrique). La NMDS ne converge pas et NMDS déforme l’espace pour faire apparaitre des groupes éventuels. Du coup les distances apparentes ne sont pas fidèles aux distances réelles.
Quelque soit la variable utilisée, aucun structuration n’est identifiée. Les 2 premiers axes ne capturent que que 22% de la diversité avec la distance de Bray-Curtis.
Analyses non essentielles au vu des résultats précédents
capture de la diversité issue de certaines covariables. Risque de ne rien voir car déjà rien ne ressort sans contrainte Changement de l’argument method en CAP (Constrained Analysis of Proximities) et indiquer quelle covariable peut expliquer cette diversité
Aucune clusterisation des échantillons n’est visible. Si présence d’arbre phylo possibilité de faire avec en utilisant dist=“unifrac”.
Call:
vegan::adonis(formula = dist.bc ~ age + SEX + tabac + BMI + APhysGlobHParSem, data = metadata, permutations = 999)
Permutation: free
Number of permutations: 999
Terms added sequentially (first to last)
Df SumsOfSqs MeanSqs F.Model R2 Pr(>F)
age 4 1.732 0.43289 2.0403 0.00954 0.001 ***
SEX 1 1.273 1.27315 6.0007 0.00701 0.001 ***
tabac 2 0.672 0.33604 1.5839 0.00370 0.013 *
BMI 1 0.318 0.31767 1.4973 0.00175 0.065 .
APhysGlobHParSem 1 0.198 0.19769 0.9318 0.00109 0.552
Residuals 836 177.370 0.21216 0.97691
Total 845 181.562 1.00000
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Toutes les variables, à l’exception de l’activité physique, sont significatives. Cependant elles n’expliquent quasiment pas de variabilités < 1%. Très faible variabilité naturelle des échantillons, peut être dû à la “vrai” variabilité du microbiote.
Ne voyant pas de cluster, il n’est pas nécéssaire de faire une heatmap d’une variable en considérant les distances de Bray-Curtis. Quelque soit la tranche d’âge, il y a beaucoup de diversité. Ce sont les mêmes OTU qui sont présents dans tous les échantillons quelque soit la catégorie d’âge.
Zoom sur les 50 taxa les plus élevés:
Objectif : Voir si l’abondance de certaines espèces diffèrent entre les groupes
Sur les données sexe.
Avec un seuil de 5 % permet de ne récuperer que 30 OTU.
Sur les données âge.
Avec un seuil de5 % permet de ne récuperer que 45 OTU.
Beaucoup de bactéries dominées principalement par Firmicutes et Bacteroidetes.
Pas de genre spécifique à une catégorie
Grande diversité de bactéries au sein de chaque échantillon. Différences significatives pour le nombre d’OTU et d’espèces de bactéries entre les personnes de différentes catégories
Pas de différences majeures dans la composition du microbiote entre les catégories (fumeurs et non- ou ex-fumeurs ou entre “jeunes” et “séniors”). C’est probablement dû au fait que la variance intrinsèque de chaque groupe est forte et que la communauté type par exemple des fumeurs n’est pas très différente de celle des non-fumeurs.
Les différentes variables sont significativements différentes mais n’expliquent que très peu de variabilité